在統計推論中,我們從觀察單個資料點轉向分析一個 **統計量**——即樣本序列的函數映射 $Y = h(X_1, X_2, \dots, X_n)$。由於底層樣本由隨機變數構成,統計量本身也是一個隨機變數,其機率法則稱為 **樣本分配**。
統計量作為映射
統計量正式定義為一個函數 $h: \mathbb{R}^n \to \mathbb{R}$。我們透過前像來定義統計量落入集合 $B$ 的機率:
$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$
獨立同分布基礎
對於一組獨立同分布(i.i.d.)的隨機變數而言,特定樣本點 $(x_1, \dots, x_n)$ 的聯合機率等於各邊際機率的乘積:$p(x_1)p(x_2)\dots p(x_n)$。此乘積在計算統計量取得特定值的總機率時,可視為每一個樣本點的權重。
範例 4.1.1:幾何平均數
考慮一個離散母體,其中 $p_X(1) = 1/2$,$p_X(2) = 1/4$,且 $p_X(3) = 1/4$。我們抽取大小為 $n=2$ 的樣本 ($X_1, X_2$),並將統計量定義為幾何平均數:$Y_2 = (X_1 X_2)^{1/2}$。
為了求出 $Y_2$ 的分配,我們列出所有 9 種可能的配對 $(X_1, X_2)$,計算其聯合機率,並得出對應的 $Y_2$:
| 配對 $(x_1, x_2)$ | 機率 $P(x_1)P(x_2)$ | $Y = \sqrt{x_1 x_2}$ |
|---|---|---|
| (1, 1) | 1/4 | 1.000 |
| (1, 2), (2, 1) | 1/8 + 1/8 = 1/4 | 1.414 |
| (1, 3), (3, 1) | 1/8 + 1/8 = 1/4 | 1.732 |
| (2, 2) | 1/16 | 2.000 |
| (2, 3), (3, 2) | 1/16 + 1/16 = 1/8 | 2.449 |
| (3, 3) | 1/16 | 3.000 |
精確分配與漸近分配
在進入如中央極限定理(CLT)之類的極限定理之前,我們必須掌握「精確分配」。這涉及針對小而有限的 $n$,計算統計量的具體機率質量或密度函數。當解析形式變得難以處理時,我們便改用數值模擬,例如 **蒙特卡洛近似**。
🎯 核心原則
樣本分配是某個獨立同分布序列之函數所對應的隨機變數的分配。它是原始資料與科學推論之間的橋樑。